| 雷峰网
0
本周,“2021人工智能产业论坛:数据要素与隐私计算”在成都举办,由中国人工智能学会主办,星云Clustar承办。论坛上,近二十位来自人工智能、金融科技的学术界、产业界人士,围绕隐私计算、数字金融等话题展开了深入的探讨。
专家们在会上一一指出数据要素从诞生到使用、交易的各种痛点所在,并结合自身实践经验给出了发展路径的思考;金融机构、政企合作如何借此良机推动数字化进程、摆脱种种陷阱,也同样是论坛的一大重点。
恒生电子研究院院长、原上海交易所总工程师白硕就指出,“跑马圈数据”时代的两大痛点,是合作难和链条长。解决方案是加宽加高底座,打造一个开放的生态。数据智能革命会从数字化的中台开始,数据是基础,中台是关键场景的规划,隐私计算是当中较为突出的技术之一。
数据容易被复制、泄露、扩散,这种特性对市场非常不利,以至于有些人认为数据的经营和交易有可能是一个伪命题。
数据的构成也相比之前变化颇大。例如资本市场,从资讯商提供主流数据行情、上市公司标准化解决数据等,进入到非标数据分析的时代,大量的另类数据、非结构化数据出现。
数据生态起了根本性变化,为此有四种选择诞生:过去互联网平台的发展模式;政府数据所谓的数据服务模式;万德、同花顺这类私有终端的传统模式,单一厂家掌控所有的数据来源;数据联盟。
传统打法可能不再是主流,私有终端也未必能应对另类数据的庞大体量,联邦化的技术发展正值窗口机遇期。
数据到场景的链条过长,从附加值低的裸数据,转型艰难的带标数据,再到智能化深加工的数据、场景数据,各阶段所需技术不同,不同技术的拥有者变成了要“分段”体现自己的价值。这意味着谁能打通全链条,就可能占据生态上的优势。随着隐私计算走向成熟,机会也出现在了to B的联邦化数据经营战场。
新的机会,纵向看,内容集成商对接数据到场景的旧做法,可能会演化到全栈服务商提供内容深加工的形式;横向看,外部数据、服务会通过带保护的方式,进入到基础业务能力,合并形成统一的联邦化中台再对接业务。
加拿大工程院院士、加拿大皇家科学院院士杨强,则就《数据要素与联邦学习》为主题带来分享。他指出,数据的特点之一是增长迅猛,布置起来零成本;数据的价值属于场景的定义,场景不同、价值不同;同时它也具有马太效应,更容易形成垄断。
数据分为可用和不可能,前者又细分为可见和不可见。我们如今感兴趣的,实际上发展的是可用和不可见的分支上。
第一阶段,上世纪七八十年代,安全多方计算,针对精确计算和数据库查询的隐私保护需求而提出。安全性非常强,有理论证明,效率却非常低。
第二阶段,针对效率问题,提出差分隐私概念。通过概率方法引入噪音,使得查询方不能窥探数据库内。缺点是不能完全保障安全,且大量增加通知量。
第三阶段,集中硬件加密计划。硬件厂商提出新的芯片,使数据进入安全加密计算,一方看不到其他方数据,计算结果大家可以得到。
第四阶段,联邦学习,针对这种大规模复杂的计算多方计算而建立。
(推荐阅读:《微众银行首席AI官杨强:万字图文详谈联邦学习最前沿》)
机构间建模时,多数依靠特征补充来建立更好的模型。当机构和设备重叠不多时,可引入迁移学习的概念,把数据空间给迁移到一个新的空间,这多数是用在异构的数据。
还有一个重要研究方向,是激励机制的建立。例如利用区块链来记录审计,每一个数据拥有方对整个联合模型的贡献。这就需要一个公平的利益分配原则,需要经历机制设计的过程。
应用方面,首先在金融的交叉营销、反洗钱,可以通过联邦学习把他们的数据联合建筑,把模型的特征空间加以扩充,完成联合建模;以及医疗诊断、物联网、无人车网络等。
总体来说,联邦学习是多学科的交叉,包括安全合规,如何防御攻击和提升教育,如何广泛的来进行技术应用,还有如何建立这种联邦机制联盟的机制,以鼓励大家持续的为经济体为生态贡献。
而隐私计算的商业模式也逐渐形成,例如平台建设方靠硬件产品部署和提供利用项目建设的方式收费;咨询服务商帮助大平台进行数据价值解读,利用数据运营等。
香港科技大学智能网络系统实验室主任、星云Clustar创始人陈凯,与清华大学金融科技研究院副院长、华控清交创始人徐葳也就隐私计算和数据要素两大主题,带来了一场深度对话。
数据保护现状是否也促成了更多潜在的商业机会?对此,陈凯表示机遇与挑战并存,面临的挑战首先是产品;徐葳则指出,长远来看,挑战仍然在于数据能否带来价值。
而对于技术应用角度如何积极适应规则,陈凯表示,很难有一个技术/算法能够最小地完成最小影响,最小范围、最短时间;法规是在技术研究上给予约束条件,帮助推动研发和落地的进程。
当被问到隐私计算未来发展的特征,陈凯表示建立安全的数据网络意义重大,如何处理大量不同机构间的异构数据、性能和规模上处理海量数据、如何让利益共享的性能有指数级的提升,当中有许多值得努力研究的难题。
徐葳则笑称“只有烂大街的技术才是好技术”,认为一项新技术未来的表现,要看技术本身能否成功、使用门槛能否降低。数据源也在逐步有机生长,很多不同行业、不同地区的小平台被建立起来交换数据,如何让这些异构平台也增长成功、小的计算方法和技术整合起来,实现规模经济,也值得关注。
百度安全产品总经理韩祖利也认为,数据要素呈现几大趋势特性:规模上升,类型增加,数据价值密度降低,应用场景也在泛化。
在他看来,当代数据安全的核心要义:应对强对抗的安全问题,非对抗安全和内部使用的权限、审计,隐私保护。因此一个方案如果诞生,应具备三个特点:覆盖数据全生命周期,一体化的集中治理平台,和合规的数据使用、流通形式。
成都大数据集团总经理顾勤就表示,关于科学要素流通的创新实践主要有三个阶段:公共数据运营;整体数据流通,政府的公共数据和社会企业的数据间产生碰撞;产业数据的协同。
以第三阶段为例,即产业数字化,有两种方式:传统产业的体能升级;创新产业的协同效应,通过系统的互联、数据的交互,产生新的价值和场景。
第四范式副总裁、主任科学家涂威威,则在演讲中提出这样一个问题:传统的数据安全设计,能够覆盖AI应用的范围吗?
在训练到预测的许多环节里,都出现了他们预想不到的攻击方式。多种看似正常合法、实为攻击的手段,已经发展颇为成熟。
例如AI公司对外提供信用卡授信模型,攻击者可以通过不断申请、使用授信服务,将反馈回来的数据用于“猜测”那个授信模型。如果这样的新模型被训练出来,攻击者有可能就会猜到训练集的内容,相当于数据泄露,但该过程中的行为均是合法的。
很多研究陷入了停顿状态,AI应用是一个广大的系统,攻击者能以任意方式攻击。在实际应用当中,即便这部分防住了,其他地方依然有很多的缺口。而AI相关理论目前尚未辨析清楚,如果用于引申的AI应用当中,其实际指导作用十分有限。
为此,从传统IT安全角度出发,从商业逻辑和可行性出发,讨论隐私安全是一种矛与盾的理论,要加强对攻击者的研究。
论坛的下半场则关注数据要素与数字金融。国家金融与发展实验室副主任曾刚,从金融机构数字化的角度切入,指出需要组织架构和数字化基础架构的调整、创新;数据资产化能力和数据治理、数据营销和运营能力、数字化风控能力,只有少部分金融机构做到了。
以前是实现商流,物流,资金流三流合一,这个是打造闭环模式重要的理念。但是现在这个闭环模式意味着对数据的垄断,所以要打破。
最后他强调,数字化的本身并不是技术多高、计算能力多强、准确率多高等,从传统金融机构角度来讲,核心是服务客户的需求。因此数字化并不是一味追求数据领先性,而是适应性,适宜性,寻找最合适的技术。
清华大学国强教授、智能产业研究院首席研究员聂再清,也提出了两个具有挑战意义的问题:
一是模态数据。如何联系不同模块来提升AI的认知能力,使其综合应对实际应用的水平提升,应用好各模态间的信息?
二是多模态应用,训练成本颇高。如何提升人机协作的效率,更多利用AI来低成本生产高质量的知识和训练数据?
那么,在可信AI原则下,如何发挥私有数据的价值?他指出,要这些原始数据利用机器学习变成知识;通过经济方式共享、联邦的方式,看到“私有财产”数据的价值,得到应有的经济回报。
建信金融科技创新实验室总经理王雪,分享了建设银行和建信金科在数据和隐私监管趋严的前提下,对解决路径的思考:
一,所需要的隐私计算平台本身的功能,一定是和场景、需求强绑定的。其开发过程需要由长激动不断调整和验证。
二,在此过程中,场景和生态要有相互促进,场景和运营能力的不断提升对平台起到反哺和教学的作用。
三,核心思想仍然是通过隐私计算能力实现数据价值最大化。
王雪也结合了数易联平台的建设,介绍了建行对该平台的规划细节。她表示联邦学习也在集团内部有所应用,用于产品营销、政务数据的融合与挖掘等。
星云Clustar的CEO陈沫也透露,他们已与建行合作搭建了一个联邦学习的联合建模平台。
光大信托信息技术部副总经理、数据中心总经理祝世虎就指出,很多中小银行在金融科技上落入后发劣势,后浪可能仅学习前浪表面容易实现的部分;而前浪也容易陷入一套模型对所有业务、建模套路化的陷阱,模型容易失去准入效果。
他预测,未来金融科技发展会有六大方向:
深度学习算法将会被广泛采用,随着数据的进步,深度学习算法才会充分发挥活力;
多模态数据、非金融数据会广泛使用;
网络发展解决了反欺诈的问题,图谱能够识别新型欺诈,多维图谱的不断丰富会成为银行的第二数据源;
联邦学习会大规模落地;
算法的可解释性将会被逐步重视,近两年都集中在特征重要性的排序上。不过也不要一味追求可解释性,智能的本质是利用算法和数据,抓住那些被埋没的不可解释信息出来。
自动化的监控平台将会逐步的升级为模型风险管理平台。
雷锋网雷锋网雷锋网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。